2404.00213 강화학습 파인튜닝(SFT)을 통해 대규모 언어 모델에 새로운 지식 주입하기

Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning

논문: https://arxiv.org/abs/2404.00213

초록

최근 몇 년 동안 대규모 언어 모델(LLM)은 사람과 유사한 텍스트를 생성하는 데 괄목할 만한 성능을 보이며 다양한 애플리케이션에서 귀중한 자산임이 입증되었습니다. 그러나 이러한 모델을 조정하여 도메인 외부의 새로운 지식을 통합하는 것은 여전히 어려운 과제이며, 특히 모델의 지식 마감일 이후에 발생한 사실과 사건에 대해서는 더욱 그렇습니다. 이 백서에서는 LLM에서 지식 주입을 위한 방법으로서 지도형 파인튜닝(SFT)의 효과를 특히 최근 스포츠 이벤트 영역에 초점을 맞춰 조사합니다. 토큰 기반과 사실 기반 확장이라는 서로 다른 데이터셋 생성 전략을 비교하여 모델이 새로운 정보를 학습하는 데 도움이 되는 훈련 데이터를 생성합니다. GPT-4에 대한 실험 결과, 토큰 기반 확장은 Q&A 정확도를 향상시킬 수 있지만 새로운 지식을 균일하게 다루지 못할 수 있음을 보여줍니다. 반면에 팩트 기반 확장은 모든 팩트에 걸쳐 고른 적용 범위를 보장하는 보다 체계적인 접근 방식을 제공합니다. 본 연구에서는 SFT를 통해 보다 효과적인 지식 수집을 유도하는 새로운 데이터셋 생성 프로세스를 제시하고, 그 결과 도메인 외 지식과 관련된 Q&A 작업에서 상당한 성능 향상을 보였습니다. 이 연구는 LLM의 도메인 적응에 대한 이해에 기여하고 특정 지식 영역에서 LLM 응답의 사실성을 향상시키는 데 있어 SFT의 잠재력을 강조합니다.